Emergence of Locomotion Behaviours in Rich Environments
https://www.youtube.com/watch?v=hx_bgoTF7bs&feature=youtu.be
報酬関数が明確ではないタスクに対して、 適切な報酬関数を人手で設計することは困難 学習がうまく進まない
単純な報酬のままでも,多様で複雑な環境で学習を行うことにより多様で頑健な行動が創発 報酬=進んだ距離 + 胴体を前に傾けた角度
入力を内部環境と外部環境の情報の2つに分け,別々にエンコード 学習速度が大幅に向上
Nicolas Heess, Dhruva TB, Sriram Srinivasan, Jay Lemmon, Josh Merel, Greg Wayne, Yuval Tassa, Tom Erez, Ziyu Wang, S. M. Ali Eslami, Martin Riedmiller, David Silver (Submitted on 7 Jul 2017 (v1), last revised 10 Jul 2017 (this version, v2))